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Beschreibung 

V«fahr.n und *.ordnu„, E.Hennen von Sp.ache 

^ ^.-sf^t- ein Verfahren und sine fJi- 
DSe vorliegende Erfindung betrif.t em 

ordnung zum Erkennen von Sprache. 

^. K<=.n Krkennen von Sprache werden in 
Sp.ac.e.Kennungssvs.e.en e.nges J ^^^^ 

che-kennungs5ystemen sind z.B- Dikt.e. 
tisch arbeitende Telefonvermittlungen. 

v»rfahren zunv automatischen Erkennen von 
eei bisher bekann en V ^^^^^^ ....nnungs.e.ler 

verursacht. Bei dx ^^.^^^^^ gprechers, dxa .war 

Arten, aamlich dxe Sprache ei e ^ ..-^.signal des ex- 

.eistens korrekt ^^^^^^'^^^^^^^ ^^^^ 

,ein ais sprache erkannt wird. 

0 gerausche, das taiscuxx.. 

. V.P stellen eine erhebliche Fehlerauelle bei 
Die Nebenger&usche steixen e i ^ 
II .uto».ti3ch.n Sr^ennung v=n Sprache dar. 

,(„pr Fehler werden spracherkennungssy- 
,5 zur varmerdung derart.,er ^^^^^^ , „,i„.„t, 

Sterne auf die sprechweise ob das 

,0 da. da. : r :ir:der eln »e.en,er.uscn 

a.ustische Signal vo™ ^P"*" „«h3elnden Sprechern 

i3t. spracherlcennun,ssy=te.ne mt h.u J ^^^^^^ 

30 .snnen nic« aut :eden t^^f.^.e^^nanlage Ince- 

L «ln»ten dauernde ^ r/^r Bruc.teUe el- 

seine Nachricbt sprechan kann, die 
35 ner Minute dauart. 
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Erkennen von Sprache ^erringert warden. 

3che erzeugt. Erkennungsf ehler 

ein Verfshren zmr. Erkennen von 

l.en in de. Sp.ac.e ..„itt.n. »=h 

Kuhelaut=r».e (^^""^ "f",,, ,„o-..v.l, fur die Wdrt.r 
„Ud am. ..ttlare zwischen de. 

. „i„ieren »ortla.tsterlce («<= ,,Kannt, falls 

Oifferenz (M -^""^"J ^ (Si-Lev^, .ra.er als 

,0 Etlcennung der sprache m 

,,„„t.rMnabsCand zwischen den 
Ole Dl£*er.nz A bUdet ..nen Lauts"- ^^^^^^^ 

.sprcchanen «a«..u und d.n Ga u ^,^,„„ 
Lr .aut3t.r..nabstand . Cs wUd s»U 

35 as aU n.cbt .orrakt « ;„„,,,3ti»«n Laut...r.enab- 

f^stgastellt, Ob ein „ierbal wlrd da. 0.- 

stand «*"9an '^"''^'f^lll'^^,^,, di. bei her.Sn^Uchan 
3..nd aus,enut.t, ^^V'^^^J'; ^ von Spracha n.uU, 
V.rfahren ..iser al3 die vo» Spracha. 

30 «ehle.naftan .r.ennun.an ' ^^^^„,^,,„3,,e .onnen .it da. 

,,,procbene„ »6rtar ,_,^^,^„, ,„abhangiq davon oo 

gie Worter enthalten 


gnai darstellen. 


35 


zudem sehr einfach reali- 
"-r'^dr"::;" rue. ......a .be. ^eue 
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A .crachsignaUbschnittes bestirnmt werd.n 

.u.. MS Lautst.r.e S.nne de ^^^^^^^ p.^.^^.u- 

Usche Gr..e verstanden d e et.a P P ^^^^ ^.^^^.^ 
scnen Lautst.r.e ist, d.e ^ /.^^ ..ustischen Signals 

propo.tionale Gr^ften s.nd die ^^^^J 3 insbe- 

Lw. eines — ^^^^^rT^/en w B.. die Spannung oder 
sondere deren elektrische Groflen. w.e 

der Strom. 

da. die richtl,.. Merung.n ^"J * »,,bunga,.- 

.on ane. Syste. .ur -'^^'^''^^j:JZtL.r von de» die 
.at=«iich .u ----^ n;r.;en .0. Unt..sc.e.du„, 

richt.gen v» de. '^'^f ^p,,,,,,,, .es=.n Sprache 

Insbs=ondere als sprache von de. 

za erkennen ist, jumeist Hmtergrund komt. Somit 

stdrgerausch, da= .umeist f "/ f///^^..^, ^.s.en Spra- 

anhand des ^-""^^^^f j;:/;: jHinte.,rund,e..usch 
cne erkannc werden. soil, diese 
onterschieden werden. 


25 


30 


35 


ncn von Sprache angeg.ben, die e.n 

A^r^rt eingerichtet ist, dall _ 
weist, die derart emge ^^^^^ Sp,a 

a) anhand von Wortgrenzen Worter 

Che bestimiubar sind; (g^.^evel) wahrend dar • 

b) eine mittiere Ruhelautstarke (Sx 

c) sine mittiere wortlautstarke [ 
ermittelbar ist; ^^^^^^^^^ 

d) ein« Differenz (A) zw^s Ruhelautstarke 
Starke (Wo-Level) und der mittleran 

(Si-Level) bestimmbar ist; 
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e) Sprache erlcannt wi.d, fall, die Different (A) zwxschen 
der mittleren Wortlautstarke (Wo-Level) und der mxtt- 
leren Ruhelautstarke (Si-Level) grolier als ein vorbe- 
stimmter Schwellwert (S) ist; 
5 f) ansonsten keiae Erkennung der Sprache durchgefuhrt 

wird. 

,es erflndun,s,..SBen verfahr.n. oder einer sainer vor=tehend 
10 eriauterten Weiterbildungen. 

Di. Erfindung wird folgenden unter Bezugnahme auf die zu- 
gehorigen Zeichnungen beispielhaft u^her erlautert. 

15 In den Zeichnungen zeigen 

Fig.l schematisch ein Verfahren zur Erkennung von Sprache 
in einera Fiuflciiagraim; 

20 ein Dlagraim, das .inen Tail einas signalab.chnittes 

darstellt; 


Fig. 3 


schen^atisch eine Telekomunikations-Anlage, die nach 
dera erf indungsgemSflen Verfahren arbeitet, .n exnem 
25 Blockschaltbild. 

in Fig 1 ist ein Verfahren zub automatischen Erkennen von 
sprache sche.ati.ch dargestellt. Dieses Verfahren w.rd .n der 
praxis durch ein ComputerprograKun reaiisxert, das auf exnem 
30 computer oder einer Prozessoreinheit arbeitet, die exnen Exn- 
gang fUr ein Sprachsignal aufweist. 

Das Verfahren bzw. das entsprechende Program wird im Schrxtt 
SI gestartet. Ira folgenden Schritt S2 wird ein Wort exnes 
35 sprachsignals S analysiert. Diese Analyse erfolgt xn an sxch 
k fnter Weise, wobei das akustische ^^^^^^^^^J^^' 
cherweise als in ein elektrisches Signal gewandeltes Sxgnal 
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, . t- in Wort.r und Pausen segmentiert wird und die Wdr- 
r ;x /.w ndelt werden. Das Seg^enUeren des Signalao- 
ter m Text gewan viterbi-Allignment-Verfahren. 
schnittes erfolgt z.B. nach dem Viterbi axi g 

T .ia 2 ist ein Diagranun da.gestellt, das in einem Koordina- 
in xst e ^ signalabschn.ttes S zeigt. In dxe- 

tensysr.. e.nen ^^^JJ^^^ /^^^ ^,,,,3^ di. Zeit t und auf 
sem Koordinatensystem 1st auf der t .ntstarke ^ st 

der ordinate die Lautst.rke aufgetragen. Dxe ^-tstarXe 
1 Logarit^us der Energxe E des Signals S angegeb.n. 

... Laut3tarke im Sinne der Erfindung wird jede physikalische 
: L : an .n, dxe etwa proportional zur p.ysi.aUschen 
rtst.. ist, die in De.ibel ge.essen ; 
^. rrolien sind neben der Energie des Sxgnals b axe 

rre^rr.. . -.a... .... 

..u=ti.ch.n Signals, wie die Spannun, od.r 6el St™. 
Bel der s.gm.ntierung des slgnalabschuUtes s warden Zeit- 

punkte tl/ oesT^xiiuau, j j-.^^cc:f p11 ten Aus- 

.a.e . 

::rd::r/4ir«T.:: Pa.e .d ..... ... .e.p™..e„ 

tl and t2 stent das Signal S ein «ort dar. 

« scnritt S3 Wird eine .ittiere -;--:-r,,=:;r:ritu: 

^■™n,t Die mittlere Ruhelautstarke Si~Levei xs^ u 
:rMittei:e:: der .autst.r.e v» eine. Oder .e.reren Pausen- 

abschnitten P. 

T ..hritt S4 wird eine mittlere WortlautstarKe Wo-Level be- 
! t Die littlere Wortlautst.r.e Wo-Level ist der zextlx^ 
:r;.rwr 1. .autst.. ex.. ^.n^elnen Wor^^^^^^^^ 
schnitt W. D.h., dali fur j.des exnzelne Wort exn sep 
Wo-Level berechnet wird. 

35 


20 


30 
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Q^K»-irt s5 wird eine Ditreren^ 
I„ n-""^^--';" f„! , u.d d.r .ittleren Ruhe- 

der mittleren Wor^lautsta.^e 

lautstarke Si-Level berechnet: 

A = Wo-Level - Si-Level 

„lautsr.rk.n.bst.nd» dar (s.eh. auch r.,. 

Schweilwert SW ist, so d ,,,,„^tarke Wo-Level und der 

• 1, r. Hor mittleren WortiautstarKe 
3ta.d ""i s^.^evsl U.ir-er als der vorb=stl»- 

n^ittlerai. Ruh.lautstarke Si Le i,^„„«rkenatetand 

" ^^"""ritui::. : . sr.: wd-.eve. o„d 

zwischen der mttleren vorbestimmte 

r^rrr^irdTs .... ...... 

.uwertanden «ort.ignale sind od« daB bei „„dge- 
Storgersusch (Rausctten n .^j^de spracherkennung 

..U3ch), bei welchen Kerne -'"^^^^^f ^"^^ J 

„a,Uch r=t, der Hobelautst.r.e sehr gerln, 

5 Bortlautstarke und der mittleren ^^^^ 

^" ^^r: er r^erkennnng. .rglbt 

,ewandeU, / 7j oi«eren. . Kleiner als 

die tofrage im schrlt 36, p^g^^^ablauj auf den 

schweilwert S« „ ausgefunrt ■ 

30 schritt ver.weigt » - i„ scbritt 

„Ud, die unten n^*-" "^^^ ^„ ,,„„,ae„ i=t. rails das 

sa gepru^t, ' ,,„eren. . gra.er aU 

Ergebnis im schritt 56 i . dlrekt auf 

der Schweilwert SW ist, wird der a 
35 eine Abtrage im Schritt S8 verzweigt. 
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• cnhritt S8 wird gepruft, ob noch ein wei- 

teres Wort ^u analys.eren und zu ^^^^ 

ist wird der Programmablaut zuz 
Ergebnis ,ja isr, , n rri das Programm mit dem 

Schr.tt S2 gefuhrt. ansonsten wird das 

5 Schritt 39 beendet. 

. h.s'-hriebenen Ausfunrungsbeispi.l werden die er- 
Bei dem oben bes.hr lebene ge„andelt und be- 

fa.ten Wdrter exnzeln -alys.ert, J ^^^^ ,,,,,,,,, 

wert.t, D.es.s daB die DiHerenz A 

10 t,..eichnet. H.erb.. " ^ ,i„es Wartes « und 

,,,end.n Paus. P ^^^"/" ""^^ ^/^^ „ ,,l,,„de. Pause 

„Utlere RuhelautstarKe d.r auf da= 

,,,, ein. Ub.r die vorher,ehende »d.r -o 

„i„elte Ruhelautstarke zu v.rwend.n. 

.^ritthaltenden Erkennuu, kann auch sine meh- 

„ra Wdrter zu=a™.en£a.sende ^^.^^.^ndigen satz als 

20 Hierbe. ist ea UbUO :ewexl. einen ,„alysiere„ 
Si^naUbsCnitt X ; "---auweisen E.kennun, 

isatzweise Ertennung) . Bel ei gemlttelt werden, 

wobei ledodh dxe » tt e Wert ^^^^^^ ^^^^^^ 

^ 25 ein.ein zu ermitteln r=t, damxt d ^^^^ ^^^^^^ 

rekt Oder nicht korrakt erkannt beurt.n 

Bei der Fehlerbenebun, im Sch-tt S7 gibt es : 
dun,sfaU unterschiediiche varianten, die 
30 Ko^ination eingeset.t werden kdnnen. 

. n variante warden Worter, dre als nicht korrekt 
Nach der ersten Variante u„„andluna rn .men 

erkannt beurteUt f ,„tternt. 

Text nicht berttcksichtigt bzw. aus diesem 

35 . der Fehlerbehebun? "ird bci einem 

«ach der .weiten '^^l^'^l^^Hf entaprechende Machricht 
al, nicht korrekt erkanntem «ort 
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an den Benutzer ausgegeben. Die Nachricht kaun als akustische 
Nachricht (Z.B.: „Das ietzte Wort wurde nicht korrekt ver- 
standen^^) ausgegeben w.rden oder als bildliche Darstellung 
angezeigt werdea. Ersteres ist fUr Spracherkennungssysteme 

3 ohne Anzeige, wie z.B. Telekomunikationsanlagen mit aucoma- 
tischer spracherkennung zweckmaibig, und zweiteres kann z.B. 
bei Diktiersystemen sinnvoU sein. Bei Diktiersystemen kann 
als bildliche Darstellung ein vorbestimmtes Fehl-Zeichen an 
der entsprechenden Stelle im Text eingesetzt werden, mit dem 

0 der Benutzer aufgefordert wird, das Wort neu zu sprechen, das 
dann automatisch an die Stelle des Fehl-Zeichens in den Text 
eingesetzt wird. Will der Benutzer hier kein Wort einsetzen 
kann er eine entsprechende Loschfunktion zum Beseitzgen des 
Fehl-Zeichens betatigen. 

^ Nach einer dritten Variants der Fehlerbehebung kann der Be- 
nutzer durch eine entsprechende Nachricht aufgefordert wer- 
den, lauter zu sprechen, dam.t der geforderte Lautstarkenab- 
stand erzielt wird. Hierdurch erfolgt eine Anpassung der 

20 Spracheingabe an die akustischen Bedingungen (Ger^uschpegel 
beim sprecher) bzw. den Bedingungen der Obertragung (Rauschen 
in der Leitung) des akustischen Signals. Falls eine wieder- 
holte Aufforderung lauter zu sprechen zu keinem besseren Er- 
kennungsergebnis fUhrt, kann der Benutzer auch aufgefordert 

25 werden, andere akustische Bedingungen bzw. Ubertragungsbed.n- 
gungen zu schaffen, indem er z.B, aufgefordert wird, von ex- 
nem anderen Telefonapparat zu telefonieren, falls er Uber ein 
Telefon mit dem Spracherkennungssystem verbunden ist. 

30 Nach einer vierten Variants der Fehlerbehebung kann bei lueh- 
reren, auf einanderfolgend als nicht korrekt erkannt bewerte- 
ten Wortern dies als zu geringe Qualitat der Spracheingabe 
beurteilt und dem Benutzer mit einer entsprechenden Nachricht 
ausgegeben werden. 

Nach einer funften Variants der Fehlerbehebung werden die 
werter sogenannter n-best-Listen einzein bewertet. Oftmals 
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konnen einer Signalsequenz mehr.re, ahnlich klingende Worter 
zugeordnet werden. Diese Worter bilden die n-best-Liste , Da 
sich die Grenzen zwischen den Pausen und dem jeweiUgen Wort 
b^i dea einzelnen W6rtern der n-best-Liste unterscheiden 
konnen fUr die einzelnen Worter der n-best-Liste unterschied- 
liche mittlere Wortlautstarken und dementsprecheud unter- 
schiedliche Differenzen A ermitteit werden. 

Die Auswahl des Wortes der n-best-Liste, das in den Text ein- 
gefugt wird, erfolgt nach an sich bekannten Match-Krxterien, 
wobei erfindungsgemaii die Differenz A als zusatzliches 
Match-Kriterium verv/eudet werden kann, wobei das Wort mit der 
griiliten Differenz A in den Text eingesetzt wird. Diese vier- 
te Variante der Fehlerbehebung bildet einen selbstandigen Er- 
findungsgedanken, der auch unabhangig von dem oben beschrie- 
benen Verfahren bei der automatischen Auswertung von n-best- 
Listen eingesetzt werden kann. 

Bei einer Ausftihrungsform der Erfindung ist der. Schwellwert 
20 SW konstant. 

Es iSt jedoch auch moglich, den Schwellwert SW an dxe akustx- 
schen Bedingungen und an die Signalubertragungsbedingungen 
automatisch anzupassen. Bestehen hervorragende akustische Be- 
dingungen und Signalubertragungsbedingungen, so werden in der 
Regel hohe DUferenzen A erzielt, die wesentlich groB.r sind 
als konstante Schwellwerte, die fiir unterschiedliche Anwen- 
dungen und Bedingungen geeignet sein mlissen. In einem solchen 
Fall xst es dann zweckiuaflig, wenn der Schwellwert an die ho- 
hen Differenzen A angepaiit wird. So kann z.B. eine globale 
Differenz Agl zwischen der mittleren WortlautstSrke mehrerer 
er^afiter Worter und der r«ittleren Ruhelautstarke mehrerer er- 
fafiter Pausen berechnet werden und diese globale Differenz 
Agl direkt Oder nach Abzug eines vorbestimmten konstanten 
Betrags als Schwellwert SW verwendet werden. Dies ist insbe- 
sondere in Kombmation mit der ersten Variante der Fehlerbe- 
hebung von Vorteil, da hierdurch auch Nebengerausche ausge- 


25 


30 


35 
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.ntert werd.n konnen, die nur gsringfu^i? lel=« als di. 

t e "ortuutsmk. sind. D.es hat .ur r»l,e, aa be. - 
. P acnein,abe .it hoher QuaUtat die SchweUe .nterha b 
d die ais nicht ko.re.t er.annte ««ter beuxteU 

der die !.igi"= Spracheingabe mlt 

5 werden, hbher gesetzt wird, als bei ^ 

=chlechterer Oualit.t. Vorzugsweise ""^ """/J 
for ds. schwellwert vorgesehen, so dali dieser nicht auf 
vermindert werden kann. 

,„ n.e Hohe des variabl.n Schwellwertes kann auch al= Qualitats- 
" :::rde: sptacnei.abe be.teilt «e.de. ^^J^' 
.lable Scnwellwert seine untare «.e o bede 

die QualitSt der Sptacheingabe relativ schlecn. 
Benut.er entsprechend .nitgeteilt we.den Kann. 

" Bei der Berechnu.g der globalen Oifferenz werden 

al e lusen und Werter beracXsidhtigt, die wShrend eines 
."rLbeHit de. spracberken„ungssy=te. ge.procbe. werde.. 

. ^ia 3 ist eine AusfUhrungabeispiel einer Vorrichtung z.^ 
20 in ng.3 -St eine niese Vorrichtung ist eme 

Frkennen von sprache dargestellt. Diese o , , 
Etkennen ,,.„., die aber eine Netzleitung 2 mrt 

Telekomunikations-Anlage 1, die uoer ei .t,.,o„._ 
einem Teletonnetz verbunden ist. Die Teleko^auni ations 
! r. 1 weist eine Teilnehmer-Zugangssteuerung 3 auf, mt 
: : r V » rhalb anrufende rernsprechteilneh.er Ober ei- 
25 "^1'=''" DigitalMudio-Prozessor 5 und loka 

n e - „ , „u eme. xelefdnendger^t . brw, .it 

rrreire^^^^^^^^ 

—SP— U r— . «it der .sageemheit e kdn 
30 emer OH Telef onLeitungen 2, 6 An 

r,^-n auf den Bus 4 und damit aur aie 

gen ingebracht werden. Die Telekdneunikations-^iage wird 
sagen eiag« „actpuert, der mit dem Digi- 

tal/Audio-Prozessor 5, der Ansageemnei 
35 heit 9 verbunden ist. 


2000 10:45 


# 


Die spracheinhelt s ist au. .In.. Sprachanaly«»odu. U ei- 
ltst.r..».B,er.t 12 und einer Spra.h=teu«.ng U aus- 

gebildet . 

Da. sprachanalyse«dul 11 tOhrt di. Analyse des sprachsi,nals 
.u^ch, v,obei das sprachsignal in Pausen and ««te. s.3..en- 
ti.rt wird and di. «6rtat in Text ,ewandelt w-''- °" 
sprachanalyse«dul leitet an das Lautst.rke™»fig«a 12 die 
eLzelnen Telle (Wdrter M und Pausen P) des sprachsignal S 
und an die Sprachsteuerung 13 den J", 
Das L,utst5rlcenn,eli9erat ermittelt die mictlere Laatstarke 
,„o-Level, Si-Level) der ein^elnen Telle des Sprachsicrnal 
l„d gibt di. entsprachenden Werte an die Sprachsteuerun, 13 
welter. In der sprachsteuerung 13 uird geprQft, ob die exn- 

n Sorter .orre.t er.annt worden sind (Schritt SS in i- 
Zr 1), wobei ggfs. die .useilterung nicht .orre.t er annt« 
worte in der Sprachsteuerung 13 vorgenomen wird (erste Van- 
ante der Fehlerbehebung) , 

Der gefilterte Oder ungetilterte Text wird von der Spraoh- 
steue^ung 13 n.it weiteren zur Fehlerbehebung notwendigen Da- 

" ., ..^r in welteraeasben, der den empfange- 

ten an den Mikroprozessor 10 weicergeg_uoi 

nen Text und die torrespondierenden Daten auswertet. 

Eine Function des m.roprczessors 10 ist, die eingehenden An- 
rufe auto-atisoh n,it den jeweillgen Telefonendgeraten 7 zu 
verbinden. Die erfolgt durch ^uswertung des vo. sprachsteue- 
rung 13 empfangenen Textes und durch entsprechendes Frei- 
IZL des ieweiligen .usgangs des Digltal/Xudio-Prozessors 


30 5, 


Kann der empfangene Text nicht ausgewertet werden Oder 1st 

„e Fehlerbehandlun, .it .nsage <zweite, dritte o^er vierte 
Variante) notwendig. so wird die tosageeinhelt 8 vo« Mlk o- 
35 prozessor zur DurchfOhrung der entsprechenden «.sage gesteu- 


ert. 
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.i„e sutomatische Vemittlung integriert, die die g 
Tr..r,e.pr.cKa selb=t.tW an die iew.Ui,en Telefonendger.- 
te weiterleiten kann. 
' Mit der arflndun,s,e«.lier> Tel.to-unikat«ns-toUg= 1 ist es 

die zn wahlende Nmrner sprechen, ansteUa si. auf den Tastan 

10 zu tippen. 

Ml die=a Funktionen s^tzen eli.a mB,Uchst fehl.rfrala Spra- 
chLennun, vorau.. Du.ch dl. Ertinduna k.nnen ..War durch 
^ ,.r.u!cha. sai « durch ai. Sprach.l,nai i. Hincar,rund 
15 Oder dureh ein teln Spraehsignal darstallandaa Garaosch, w - 
.antllch basaer und au£ ainfachere Art and «aisa als bar har- 
kSHBlichar, spracharkannungssysteman varmiaden wardan. 
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P atent ansE rUche 

^ Verfahren z-om Erkennen von Sprache, 

bei dem anhand von Wcrtgren.en W^rter und Pausen in 
der Sprache bestimmt werden; 
b) bei dea eine .ittl.re Ruhelautst.rke (Si-Level) w.h- 
rend der Pausen ermittelt wird; 
. bex d.nv eine .ittXere Wortlautst.rlce (Wo-Level) fur 
die WOrter ermittelt wird; 

bei dem eine Differenz (A) zwischen der mttleren 
Wortlautst.rke (Wo-Level) und der mittleren Ruhslaut- 
starke (Si-Level) bestinutit wird; 

e) bei de. Sprache erkannt wird, falls die D.fferen. (A) 
ewischen der mittleren Wortlautst.r)ce (Wo-Level) und 

,5 der raittleren Ruhelautst.rke (Si-Level) grolier als em 

vorbestimmter Schwellwert (S) ist; 

f) bei den. an.onaten keine Erkennung der Sprache durchge- 

fUhrt wird. 


10 


20 


25 


Verfahren nach An$pruch 1, ^ 
bei dem die mittlere Ruhelautstarke und die luxttlere 
Wortlaut3t.rke als Logarith^us uber die erfa.te Energ.e 
gemessen wird. 

3 Verfahren nach Anspruch 1 oder 2, 
bei de. eine globale Differenz zwischen der mittleren 
Wortlautst.rke mehrerer segraentierter WOrter und der 
..ttleren Ruhelautst.rke mehrerer segmentierter Pausen 
berechnet wird und anhand der globalen Different der 

30 schwellwert bestiiraut wird. 

4 Verfahren nach Anspruch 3/ , , ^ 

■ bei dem der schwellwert der globalen Differenz glexchge- 


35 


setzt wird. 


verfahren nach Anspruch 3, 

bei dem die globale Differenz uxu einen vorbestimmten, 
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.el de- ein .onst.nt« SchweUwert verw.nd.t w.rd. 

7. v.rfahren nach eln.m der MsprUche 1 bis 6, 

bei den, ein Hort, fur da= K.in. Erkennun, f^J^f' 

a verfahrsn r>ach aiwm dei Msprache 1 bis 1, 

lei d« f.Us ^elne ErKennung der Sprache durchgefuhrt 
wlrd "Ine Nachricht an einen Benut.er a.s,e,eben w.rd. 


:::r:rt:r:;;er ..r^b. ....rd.. „ud, 

Tautfr .u ,pr.che. und/od.r das nicht Korre.t er.annte 
Wort zu wiederholen. 


20 


% 25 


30 


10 Verfahren nach Anspruch 9, .„.fordert 

^ J Ki.r^hrirht der Benutzer aui.ge£oraen: 

::-:;berder .J^^r.. »ortIauU«r.. .or .Utlerer, Kube- 
lautstarke erzielt wird. 

U. V.r^abren nacb .in., der vorberg.bend.b -^P'";;- 

V, ■ di^ mittlere Ruhalautstarke jeweils fur eiM ein 
Tel. Pau e« Lit wlrd und di. D.fterenz .wiscbe„ 
r L ren w.rUautstar.e ,W„-.evel, de. ,.sproc ene„ 
W tes und der »Utlere„ Kubelautst.r.e 
u„„.tt.lbar vorausgehenden Pause oder der ur«„.ttelbar 
nachfolgenden Pause bestimmt wird. 

12 verfahren naeb einen, der vorhergahenden «.spruche, 

IZ ln die .ittlere Eubelautst.rRe Uber .ehrere au e n 
al fbi9-de Pausen ,e.itteU «ird und diese ,e»itteUe 
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10 


Ruhelautstarke bei der B.stimmung d«r Differenz (A) ver- 
wendet wird. 

13 Verfahren nach «inem der vorhergehenden AnsprUche, 

■ bei dem eine n-best-Liste erstellt wird, und jeaem Wort 
der n-best-Liste eine Differenz (A) zwischen der mxttle^ 
ran Wortlautstarke (Wo-Level) der einzelnen gesprochenen 
W5rter und der mittleren Ruhelautstarke (Si-Level) zuge- 
ordnet wird, und das in den Text aus der n-be.t-Liste 
einzusetzende Wort nach Maflgabe die.er Differenz (A) zw.- 
schen der mittleren Wortlautstarke (Wo-Level) der einzel- 
nen gesprochenen Wdrter und der mittleren Ruhelautstarke 
(Si-Level) bestiinmt wird. 


15 


20 


25 


30 


Anordnung zum Erkennen von Sprache 

nvit einer Prozessoreinheit, die derart eingerichtet ist, 


dali 


aan , , c -^^ 

a) anhand von Wortgrenzen Worter und Pausen in der Sp.a- 

Che bestiimnbar sind; 

b) eine mittlere Ruhelautstarke (Si-Level) wahrend der 
Pausen ermittelbar ist; 

c) eine mittlere Wortlautstarke (Wo-Level) fur die Worter 

ermittelbar ist; 

d) eine Differenz (A) zwischen der mittleren Wortlaut- 
starke (Wo-Level) und der mittleren Ruhelautstarke 
(Si-Level) bestimmbar ist; 

e) sprache erkannt wird, falls die Differenz (A) zwischen 
der mittleren Wortlautstarke (Wo-Level) und der mxtt- 
leren Ruhelautstarke (Si-Level) gr5fier als ein voroe- 
stimmter Schwellwert (S) ist; 

f) ansonsten keine Erkennung der Sprache durchgefUhrt 

wird. 


+43 89 63681857 S. 20/23 

-mG-2000 10 = 47_^ SIEMENS RG ZT CG 

Zusammenfassung 

verfahren und Anordnung zum Erkennen von Sptache 

5 ..tindun,s,er».. wird .in l..ut=t...».l..tand .wischan dan er- 
k.„nten W6«.rn und d»n d.»ischen li.genden Paus.n em t 
Lit Tsr d« L,utst.r..nabstand ein« Wortes Ue.n.r als .in 
vcbasU^t.r Sch„.Uwe.t, so wird das Wert als nicht orra.t 
arkannt bau.tallt, Hietdurch warden durch Nebengarausche var- 

,0 ursachte Fahler auf aine .intacKa Art und «.isa v.rm.adan. 


Figur 2 


